![]() 文脈に基づく音声認識文法選択
专利摘要:
とりわけ、この明細書の主題は、第1の計算装置と関連付けられる非言語的ユーザ操作から取得された地理的情報を受信する段階を含む方法において具体化され得る。前記非言語的ユーザ操作は、地理的位置におけるユーザの関心を意味する。前記方法は、更に、取得された前記地理的情報を使用して、前記地理的位置と関連付けられた文法を識別する段階と、前記ユーザからの音声入力の音声認識処理のために識別された前記文法を選択する際に使用するための文法指示子を出力する段階とを含む。 公开号:JP2011513795A 申请号:JP2010549918 申请日:2009-03-06 公开日:2011-04-28 发明作者:デーヴィッド・ピー・シングルトン;デバジット・ゴーシュ 申请人:グーグル・インコーポレーテッド; IPC主号:G10L15-22
专利说明:
[0001] この問題の明細書は、音声認識に関係する。] 背景技術 [0002] 多モードアプリケーション(multimodal application)は、複数の種類、または複数のモードの入力を受け取ることができる。例えば、多モードアプリケーションは、タイプされた命令及びマウスクリックのようなユーザからの入力を受け取ることができるが、しかしながら、多モードアプリケーションは、更に、音声入力のような他の形式の入力を受け取ることができる。音声認識システムは、特定の語彙を含む文法を用いて音声入力を解釈することができる。] [0003] いくらかの多モードアプリケーションは、アプリケーションにおける異なる入力フィールドが異なる文法と関連付けられている用紙記入モデル(form-filling model)を実行する。例えば、多モードアプリケーションは、名前の語彙を含む“名前”文法を、人の名前を受け取る“名前”フィールドと関連付けることができる。人が、彼または彼女のマウスによって“名前”フィールドを選択するとき、多モードアプリケーションは、フィールドと関連付けられた“名前”文法を選択することができる。] 発明が解決しようとする課題 [0004] 概して、この文書は、1つ以上のユーザ操作に基づく黙示的な文脈情報に基づいて、音声認識において使用するための文法を選択することを説明する。] 課題を解決するための手段 [0005] 第1の一般的特徴において、コンピュータで実行される方法が説明される。前記方法は、第1の計算装置と関連付けられる非言語的ユーザ操作から取得された地理的情報を受信する段階を含む。前記非言語的ユーザ操作は、地理的位置におけるユーザの関心を意味する。前記方法は、更に、取得された前記地理的情報を使用して、前記地理的位置と関連付けられた文法を識別する段階と、前記ユーザからの音声入力の音声認識処理のために識別された前記文法を選択する際に使用するための文法指示子を出力する段階とを含む。] [0006] 第2の一般的特徴において、コンピュータで実行される方法が説明され、それは、計算装置と関連付けられると共に、音声認識プロセッサによって促されたものではないユーザ操作に基づく文脈情報を受信する段階を含む。前記方法は、前記文脈情報に基づいて、地理的位置を取得する段階と、前記地理的位置と関連付けられた文法を識別する段階と、前記ユーザからの音声入力の処理において使用する前記文法を選択する際に使用するための文法識別子を出力する段階とを含む。] [0007] 更に別の一般的特徴において、システムが説明される。前記システムは、第1の計算装置と関連付けられる非言語的ユーザ操作に基づく文脈情報を受信するインタフェースを備える。前記非言語的ユーザ操作は、地理におけるユーザの関心を意味する。前記システムは、更に、受信された前記文脈情報から取得された地理的位置と関連付けられた文法を識別するための手段と、前記ユーザから受け取られた音声入力を解釈するために識別された前記文法を使用するように構成された音声認識サーバとを備える。] 発明の効果 [0008] ここで説明されたシステム及び技術は、以下の利点の内の1つ以上を提供し得る。第1に、システムは、より大きな一般文法を使用する代りに文法の適切なサブセットを識別することによって、音声入力が認識されるスピードを増加することができる。更に、文法のサブセットを選択することは、サブセットと関連付けられた特定の文脈の中で与えられた音声命令に関する音声認識の正確度を増加し得る。システムは、更に、音声認識プロセスにおいてユーザの対話の量を減少させることができる。更に、追加の文法、もしくは、新しい文法が、ユーザに透過的な方法で(例えば、音声認識システムによって促すための明白なユーザ応答に基づく代わりに、ソフトウェアアプリケーションとのユーザの対話に基づいて)選択されることができる。] [0009] 1つ以上の実施例の詳細は、以下の添付図面及び説明に明記される。他の特徴及び利点は、説明及び図面から、そして請求項から明白になる。] 図面の簡単な説明 [0010] コンピュータで実行された音声認識において使用される文法を選択するための代表的なシステムの図である。 音声認識のための文法の選択の際に使用される代表的クライアント及び代表的音声信号処理システムの図である。 文脈情報に基づいて文法を選択するための代表的な方法のフローチャートである。 音声信号処理システムと対話するクライアントのためのユーザインタフェースの代表的なスクリーンショット(screenshot)を示す図である。 説明されたシステム及び方法を実行するために使用され得る計算装置の構成図である。] 実施例 [0011] 様々な図面における同じ参照符号は、同じ要素を示す。] [0012] この文書は、音声認識において使用する文法を選択するためのシステム及び技術を説明する。更に具体的には、アプリケーションは、どのようにユーザがアプリケーションを実行する装置と対話するかに基づいて、文脈情報を生成することができる。その装置は、文脈情報を音声認識システムに送信することができる。音声認識システムは、文脈情報と関連付けられた個別文法を識別することができると共に、その次に、装置から受け取られた音声入力(例えば、装置のユーザからの音声命令)の音声信号認識に、識別された文法を用いることができる。] [0013] いくらかの実装において、文脈情報は、地理的情報を含む。もしユーザが携帯電話機上の携帯機器用ブラウザを使用して地図を表示する(view:見る)ならば、携帯電話機は、地図によって表示された地理的位置に関する情報を、音声認識システムに送信することができる。音声認識システムは、受信された情報に基づいて地理的位置を識別することができると共に、地理的位置と関連付けられた単語、構文等の語彙を含む文法を選択することができる。音声認識システムは、その次に、選択された文法を用いて、携帯電話機からの受信された音声入力を解釈することができる。] [0014] ユーザは、ユーザと関連付けられた装置が、(例えば、ユーザに割り当てられたクッキー(cookie)のような固有の識別子によって、)音声認識システムと文脈情報を共有することを許可する方を選ぶことができる。もしユーザが文脈情報を共有することを選ばないならば、音声認識システムは、デフォルト文法を用いるか、もしくは、音声認識処理において使用する個別文法を選択する際に使用するのための地理的または他の文脈情報に関してユーザに明白に促すことができる。] [0015] 図1は、コンピュータで実行された音声認識において使用される文法を選択するための代表的なシステム100の図である。いくらかの実装において、代表的システム100は、ユーザ操作の結果として生成される黙示的な文脈情報に基づいて、文法を選択する。システム100は、クライアント装置102と、文法選択サーバ104と、音声認識サーバ106とを備える。] 図1 [0016] 図1の実装において、クライアント102は、文法を選択するために文脈情報を使用する文法選択サーバ104に、文脈情報を送信する。文法選択サーバは、クライアント102から受け取られた音声入力を解釈するために選択された文法を使用する音声認識サーバ106に、選択された文法に関する情報を送信する。] 図1 [0017] 例えば、クライアント102は、携帯機器用ブラウザ108を実行している携帯電話機であり得る。ユーザは、“氷の小屋(ice huts)”を販売する店を識別するために、携帯機器用ブラウザに検索を入力することができる。そのブラウザは、カナダ、ノースダコタ及びサウスダコタ、そしてミネソタにおける関連する店を示す地図を表示することができる。ユーザは、地図に表示するための位置を識別するためにブラウザによって使用される郵便番号のような位置識別子を、以前に入力した可能性がある。ユーザは、位置識別子を前のセッションにおいて入力することができると共に、ブラウザは、次のセッションにおける使用のために、識別子を記憶し得る(例えば、位置識別子は、クライアントに関するクッキーとして記憶されることができる)。] [0018] 他の実装において、携帯電話機は、携帯機器用ブラウザ108の代わりに、専用のアプリケーション108を実行する。例えば、専用のアプリケーション108は、ウェブページのブラウジングを可能にしないかもしれないが、しかし、オンライン地図アプリケーションのような特定の遠隔アプリケーションとインタフェースするように構成されることができる。] [0019] “1”と分類された矢印によって示されるように、携帯電話機102上で動作する携帯機器用ブラウザまたは別のアプリケーションは、黙示的な地理的情報114を、文法選択サーバに送信することができる。いくらかの実装において、文脈情報は、携帯機器用ブラウザ108によって表示された地図に基づく黙示的な地理的情報114を含む。例えば、黙示的な地理的情報114は、表示された地図の中心を識別する座標を含むことができる。この例において、地図の中心は、ミネソタの中央の位置と一致する。] [0020] 文法選択サーバ104は、受信された文脈情報に基づいて、文法を選択することができる(116)。いくらかの実装において、もし文脈情報が地理的情報114を含むならば、文法選択サーバは、地理的位置と関連付けられた文法112を識別するデータ蓄積部110にアクセスすることができる。個別文法は、特定の地理的位置と関連付けられることができる。] [0021] 文法112の各々は、対応する地理的位置と関連付けられた語彙に対応する語彙を含むことができる。例えば、ミネアポリス、ミネソタと関係がある文法は、ミネアポリスに位置しているか、もしくはミネアポリスに関連して見いだされる、店、興味のある場所、イベント、ニュース等を説明する単語または表現を含むことができる。] [0022] 図1において、黙示的な地理的情報114は、ミネソタの中心に位置決めされた場所に関する座標を含む。文法選択サーバは、最もミネソタの中心に近い場所に、固定されるか、または、中心を有する文法を識別する。文法選択サーバは、“2A”及び“2B”で分類された矢印によって示されるように、文法を識別する情報118を生成することができる。] 図1 [0023] 次に、いくらかの実装において、“3”と分類された矢印によって示されるように、文法選択サーバ104は、識別された文法情報118を音声認識サーバ106に送信する。] [0024] ユーザは、音声入力120を矢印“4”によって示されるように音声認識サーバ106に送信する携帯電話機102に向かって発声することができる。音声認識サーバ106は、文法選択サーバ104によって識別された文法を用いて、音声入力120を解釈することができる。] [0025] 認識サーバ106は、音声入力に基づいて、1つ以上の操作を実行することができる。いくらかの実装において、音声認識サーバ106は、“5”と分類された矢印によって示されるように、音声入力に基づいて、携帯電話機102へ応答を送信することができる。例えば、携帯電話機12のユーザは、“Paul Bunyan”の新しい検索を、聞こえるように(audibly:可聴音によって)要求することができる。携帯電話機102は、音声の検索要求を音声認識サーバ106に送信することができる。ユーザが携帯機器用ブラウザによって現在表示している(または以前に表示した)地図は、ミネソタが中心に置かれているので、音声認識サーバは、ミネソタの中心の近くに固定されるか、または中心が置かれる文法を使用する。音声認識サーバ106は、この文法を、音声入力“Paul Bunyan”に対応する音、単語、表現を検索するために使用する。いくらかの実装において、用語“Paul Bunyan”が、世界の他の部分と比較してミネソタと関係がある情報とより高い頻度で関連付けられているので、ミネソタの近くに、もしくはミネソタの中に固定された文法は、名前“Paul Bunyan”を解釈するために使用される情報を含み得る。] [0026] 音声認識サーバ106は、携帯電話機102からの音声入力に対応するテキスト“Paul Bunyan”を送信することができる。携帯電話機102は、携帯機器用ブラウザ108上に、受け取られたテキストを表示することができる。もしユーザが音声認識サーバ106によって実行された翻訳を承認するならば、そのブラウザは、検索語としてテキスト“Paul Bunyan”を検索エンジンに提示することによって、新しい検索を開始することができる。他の実装において、音声認識サーバ106は、携帯電話機102のユーザからの承認なしで、用語“Paul Bunyan”を使用して、検索を開始することができる。音声認識サーバ106は、音声入力から認識されたテキストを前もって伝えずに、検索による結果を携帯電話機102に送信することができる。] [0027] 図1の分類された矢印は、システム100において発生するイベントの代表的な系列を示す。しかしながら、イベントの発生は、示された系列に制限されない。例えば、系列における1つ以上のステップは、並列に発生することができる。] 図1 [0028] 図2は、音声認識のための文法の選択の際に使用される代表的クライアント200及び代表的音声信号処理システム202の図である。クライアント200及び音声信号処理システム202は、いくらかの実装においてインターネット及びセルラネットワークを含むことができるネットワーク204を用いて、通信することができる。クライアント200は、同様にアプリケーション環境208を備える携帯電話機または他のモバイル機器206を含むことができる。アプリケーション環境208は、インターネットブラウザ210、マイクロホンインタフェース212、及びGPSトランシーバインタフェース214を含むことができる。音声信号処理システム202は、音声信号処理システム202のための、クライアント200、文法選択サーバ218、および音声認識サーバ220とのインタフェースとしての機能を果たす多モードサーバ216を備えることができる。] 図2 [0029] アプリケーション環境208の中のアプリケーションは、地理的連絡先情報222を生成するか、または識別することができると共に、この情報を多モードサーバ216に送信することができる。例えば、GPSトランシーバインタフェース214は、携帯電話機206の位置に基づいて、GPSトランシーバからGPS座標を受け取ることができる。GPSトランシーバインタフェース214は、GPS座標情報を多モードサーバ216に送信することができる。] [0030] いくらかの実装において、GPS座標情報は、ブラウザ210によって多モードサーバ216に提示されたハイパーテキストトランスポートプロトコル(hypertext transport protocol:HTTP)POST命令に含まれる統一資源識別子(uniform resource identifier:URI)の一部として付加されることができる。ブラウザ以外のアプリケーションを使用する他の実装において、そのアプリケーションは、命令におけるURIがGPS座標情報(または、他の文脈情報)を含んでいる、HTTP GET命令を生成することができる。別の実装において、GPS座標及び他の文脈情報は、URIに付加されないが、しかし、その代りに、HTTP要求(例えば、GETまたはPOST)の本文に、バイナリ情報として含まれる。] [0031] 別の例において、ブラウザ210は、ブラウザ210によって表示された項目に関する地理的な文脈情報を送信することができる。例えば、もしユーザがバミューダ諸島の多数の言及を含むウェブページを表示するならば、ブラウザ210は、バミューダ諸島を指定する地理的な文脈情報を送信することができる。] [0032] 多モードサーバ216は、地理的な文脈情報222を受信することができると共に、この情報を文法選択サーバ218に送信することができる。文法選択サーバ218は、位置を識別するために地理的な文脈情報222を使用する逆ジオコーダ(reverse geocoder)224を備えることができる。例えば、もし地理的な文脈情報222がGPS座標を含むならば、逆ジオコーダ224は、座標と地理的位置との間の記憶されたマッピング(mapping)を用いて、GPS座標に対応する位置を判定することができる。] [0033] いくらかの実装において、文法選択サーバは、特定の位置を個別文法に関連付ける文法インデックス226を含む。例えば、文法インデックス226は、場所“バミューダ諸島”を、その場所と関連付けられている語彙、構文等を含むバミューダ文法と結び付ける。] [0034] 文法選択サーバ218は、逆ジオコーダ224で識別された位置と関連付けられた文法を識別することによって、文法インデックス226を使用して文法を選択する。文法インデックスは、文法IDを使用して、各々の文法を識別することができる。] [0035] 文法選択サーバ218は、文法ID228を同様に音声認識システムに送信することができる多モードサーバ216に、選択された文法ID228を送信することができる。図2において示されなかった他の実装において、逆ジオコーダ224は、識別された位置に最も近い位置に関連付けられた文法を識別して、返すことができると共に、その場合に、その文法に関して選択された文法ID228を、多モードサーバ216に送信する。] 図2 [0036] 音声認識システムは、次の音声信号処理において使用するための識別された文法を読み込むために、文法IDを使用することができる。例えば、音声認識サーバは、文法ID228を含む要求232を、文法に関するデータ蓄積部230に送信することができる。データ蓄積部は、文法ID232によって指定される文法234を返すことができる。] [0037] 音声認識サーバは、携帯電話機206から続いて受信された音声信号を解釈するために文法234を使用することができる。例えば、そのユーザは、検索語を発声することができ、それは、携帯電話機206の中のマイクロホンによって受け取られる。マイクロホンインタフェース212は、マイクロホンからの音声信号236を、多モードサーバ216に対して送信することができる。] [0038] 多モードサーバ216は、音声信号236を解釈するために音声信号デコーダ238を使用する音声認識サーバ220に、音声信号236を送信することができる。例えば、音声信号デコーダ238は、音声信号236をテキスト表現に処理するために、文法234を読み込むことができる。音声認識サーバ220は、例えば検索エンジン(図示せず)による検索を開始するために、テキスト表現を使用することができる。別の例において、解釈された音声信号は、多モードサーバ216にテキスト240として送信されることができる。多モードサーバ216は、携帯電話機206に、テキスト240を送信して返すことができる。携帯電話機106は、ブラウザ210、またはアプリケーション環境208における別のアプリケーションを使用して、テキストを表示することができる。] [0039] いくらかの実装において、クライアント200は、新しいユーザの対話に基づいて、新しい地理的な文脈情報を提示する。例えば、もしユーザが場所を変更したならば、携帯電話機206の中のGPSトランシーバは、新しいGPS座標を多モードサーバ216に送信することができる。別の例において、そのユーザは、異なる位置と関連付けられた地図を表示することができる。ブラウザ210は、新しい地図の位置を多モードサーバ216に送信することができる。音声信号処理システムは、新しい地理的な文脈情報に基づいて、新しい文法を選択すると共に、新しい文法に基づいて、受信された音声信号を解釈することができる。] [0040] 多モードサーバ216、文法選択サーバ218、及び音声認識サーバ220が、個別の装置として例証されるが、サーバは、結合されて1つの装置になることができるか、もしくは、1つのサーバは、複数の装置を用いて実施されることができる。] [0041] 図3は、文脈情報に基づいて文法を選択するための代表的方法300のフローチャートである。システム200及び202は、方法300の一例の実施に使用される。しかしながら、システム100を含む他のシステムが、方法300を実施することができる。] 図3 [0042] ステップ302において、セッションが、クライアント200と音声信号処理システム202との間で作成される。例えば、携帯電話機206は、(例えば、HTTPプロトコルに基づいて)多モードサーバ216と通信セッションを確立することができる。そのセッションは、例えば、ブラウザが検索エンジン(例えば、検索ウェブページ、対話型の地図、ユーザがサイトで主催されたプロファイルを検索することを可能にする社交ネットワーキングサイト等)のためのウェブインタフェースにアクセスする場合に確立されることができる。別の実装において、特定のアプリケーションが携帯電話機206上で開始される場合に、そのセッションは確立される。例えば、専用の地図プログラムが携帯電話機206上で開始されるとき、セッションが開始され得る。] [0043] 任意のステップ304において、ユーザIDが受け取られる。例えば、携帯電話機206は、携帯電話機のメモリ内にクッキー(cookie)を記憶する携帯機器用ブラウザを備え得る。それらのクッキーは、携帯電話機のユーザを識別する識別子を含むことができる。音声信号処理システム202は、携帯機器用ブラウザの音声信号処理システム202との以前の対話、または、携帯機器用ブラウザの音声信号処理システム202がアクセスすることができる別のサーバとの以前の対話に応答して、ユーザIDを、ブラウザに対して以前に送信した可能性がある。例えば、そのユーザは、検索エンジンのためのインタフェースを含むウェブページを訪れることができる。検索エンジンは、固有の識別子をユーザに発行することができる。音声信号処理システム202は、検索エンジンによって記憶される識別子のリストにアクセスすることができる。] [0044] ステップ306において、文脈情報が受信される。例えば、多モードサーバ216は、モバイル機器206の現在の位置を指定するGPS座標のような地理的な文脈情報を受信する。] [0045] いくらかの実装において、多モードサーバ216は、アプリケーション固有の文脈情報のような、他の文脈情報を受信することができる。クライアント202は、どのアプリケーションがユーザによってアクセスされるかを指定する情報を送信することができる。例えば、その情報は、そのユーザがブラウザアプリケーションと対話していることを指定することができる。更に、その情報は、アプリケーションのユーザによって以前に行われた過去のナビゲーションまたは他の操作の履歴を含むことができる。例えば、文脈情報は、ユーザが、郵便番号を指定することによって地図を要求したこと、与えられた地図上でズームアウト(zoom out)したこと、地図上で西におおよそ200マイル進んだこと、地図の衛星写真(satellite view)を要求したこと、興味のある場所が地図上で表示されることを要求したこと、等を指定することができる。] [0046] 別の実装において、多モードサーバ216は、デスクトップコンピュータであり得るクライアント200上で動作するアプリケーションによって表示された項目に関する文脈情報を受信することができる。例えば、そのユーザは、金融情報内容、娯楽ニュース内容、技術ニュース内容等のような、いくらかの種類の内容を含むポータルウェブページを表示する(見る)ことができる。もしユーザのカーソルが金融情報内容の上をうろつくならば、計算装置は、カーソルを囲む領域から情報を抽出することができる(例えば、カーソルの中心の半径の中のテキストが抽出されることができる)。抽出された情報のいくらか、または全ては、多モードサーバに送信された文脈情報に含まれることができる。] [0047] ステップ308において、文法が、受信された文脈情報に基づいて選択される。例えば、文法選択サーバ218は、ユーザのマウスがウェブページ上で金融情報を示す内容の上をうろついていることを示す受信された文脈情報における金融上の語彙を含む文法を選択することができる。更に具体的には、文法選択サーバ218の中の分類モジュール(図示せず)は、抽出された内容を分類することができる。文法選択サーバ218は、抽出された内容の分類の結果として生じる1つ以上のキーワードを、文法インデックス226によって文法と関連付けられたキーワードと照合することができる。] [0048] 別の例において、文法選択サーバ218は、携帯電話機206の現在の位置を示すGPS座標と対応する特定の地理と関連付けられた文法を選択することができる。] [0049] 更に別の例において、もしそのユーザが特定のアプリケーションと対話していることを、受信された文脈情報が明示するならば、文法選択サーバ218は、アプリケーション固有の語彙を含む文法を選択することができる。例えば、もしそのユーザが(例えば、クライアント200に内在するか、もしくはブラウザ210によって主催されてアクセスされる)カレンダーアプリケーションと対話しているならば、文法選択サーバ218は、カレンダー固有の語彙、及びカレンダー固有の文法規則を含む文法を選択することができる。] [0050] 文法選択サーバ218は、更に、文法を選択するために受け取られたユーザIDを使用することができる。いくらかの実装において、文法は、ユーザの過去のウェブ検索履歴に基づいて組み立てられ得る。例えば、もしユーザが考古学と関連付けられた過去のウェブ検索照会を頻繁に行ったならば、文法形成器(grammar builder)(図示せず)は、考古学と関連付けられた語彙、構文等を含む、ユーザのために個人化された文法を組み立てることができる。] [0051] いくらかの実装において、2つ以上の文法が、1つ以上の種類の文脈情報を用いて選択されることができる。例えば、ユーザによって表示された(viewed:見られた)項目から得られた文脈情報は、2つ以上の文法に関連がある可能性がある。この場合に、文法選択サーバは、音声認識における使用のために、複数の文法を選択することができる。] [0052] ステップ310において、音声信号が受信されることができる。例えば、装置206のユーザは、装置206のマイクロホンに向かって発声することができる。マイクロホンインタフェース212は、マイクロホンによって獲得された音声を音声認識サーバ220に送信することができる。] [0053] ステップ312において、受信された音声信号は、以前に選択された文法を用いて解釈されることができる。例えば、音声認識サーバ220は、文法選択サーバ218が識別した文法を選択するために、文法を記憶するデータ構造にアクセスすることができる。音声信号デコーダ238は、受信された音声信号を解釈するために、選択された文法を使用することができる。] [0054] ステップ314において、セッションがタイムアウト(time out)したかどうかが判定される。例えば、ステップ302においてクライアント200と音声信号処理システム202との間で確立されたセッションは、タイムリミットを有することができる。もしタイムリミットが超過されるならば、方法300は、終わることができる。別の実装において、もしセッションがタイムアウトしたならば、音声信号処理システム202は、新しいセッションを確立するようにクライアント200に促す。いくらかの実装において、特に、もしそのクライアントが長期の間無活動であるならば、セッション時間を制限することは、クライアントが音声信号処理システムを独占するのを防止することができる。] [0055] ステップ316において、文脈が変更されたかどうかが判定される。例えば、ユーザは、場所を変更することができる。もしユーザが新しい場所に移動するならば、GPSトランシーバは、新しい場所を反映するための応答において、GPS座標を更新することができる。新しい文脈情報は、ステップ306及び次のステップに関連して以前に示されたように、受信されて、処理されることができる。別の例において、そのユーザは、異なるアプリケーションにアクセスすることができるか、または、同じアプリケーションを使用してデータごとに異なる表示(view:ビュー)にアクセスすることができる。アプリケーションにおける変化、またはアプリケーションの使用における変化は、新しい文脈情報の伝送を開始することができる。] [0056] もし文脈情報が変わらないならば、その場合に、方法300は、ステップ310で始まるステップを繰り返すことができる。例えば、音声信号処理システム202は、あらゆる受信された音声信号を解釈するために、以前に選択された文法を使用し続けることができる。] [0057] 図4は、文脈情報に基づいて文法を選択する音声信号処理システムと対話するクライアントのためのユーザインタフェースの代表的なスクリーンショット(screenshot)を示す図である。スクリーンショット400は、地図402を含む。ユーザは、クライアントのためのブラウザを開始し、そして、“GOOGLEMaps”もしくは“YAHOO! Maps”のようなオンライン対話型地図サービスにログオンすることができる。そのユーザは、郵便番号、市外局番、市および州、または、他の位置識別子を入力することによって、地図に場所を指定することができる。例えば、そのユーザは、郵便番号“95661”を入力することができる。その場合に、地図サービスは、カリフォルニアのローズビル(Roseville, CA)に対応する地図を、ブラウザ上で表示するために送信することができる。] 図4 [0058] ブラウザ(または、ブラウザによって表示されたウェブページ)は、検索オプションウィンドウ404を提示することができる。ユーザは、店、興味のある場所、位置等の検索を開始するために、検索オプションウィンドウ404と対話することができると共に、地図402上に結果を表示することができる。オプション406によって示されたように、検索オプションウィンドウ404は、“入力された”検索を受け取ることができる。例えば、ユーザは、キーパッドを使用して、オプション406を選択することができる。その代りに、そのユーザは、選択肢“新しい検索を入力する”を発声することができる。その場合に、そのユーザは、キーパッドによって検索を入力することができる。] [0059] オプション408によって示されたように、検索オプションウィンドウは、更に、口語の検索を受け取ることができる。例えば、ユーザは、キーパッドを使用して、または選択肢を発声することによって、オプション408を選択することができる。] [0060] スクリーンショット410は、ユーザが新しい検索を発声するのを望むことを示すオプション408をユーザが選択した後で表示された代表的なインタフェースを示す。この例において、そのクライアントは、店の種類または店名を発声するように、ユーザに視覚的に促す。図412は、検索語“フライの店(Fry's)”を発声するユーザを例証する。] [0061] 他の実装において、クライアントは、興味のある場所、地理的位置等のような、他の用語を発声するように、ユーザに促すことができる。] [0062] 更に他の実装において、そのユーザは、検索を発声するように、視覚的に促されないが、しかし、自発的に検索を開始することができる。例えば、ブラウザは、技術ニュースを表示するウェブページを表示することができる。そのユーザは、“AJAXを検索しなさい”と言うであろう。更に他の実装において、そのクライアントは、検索もしくは他の音声入力を、入力するかもしくは発声するように、ユーザに対して聞こえるように(audibly:可聴音によって)促し得る。] [0063] 別の実装において、そのユーザは、そのユーザが音声検索を開始したいことを示すために、携帯電話機上の“アンサーコール”キーのような、装置上のキーを押すことができる。そのユーザは、発声している間キーを押さえることができるか、もしくは、所定の長さの時間の間キーを押さえることによって、検索を開始することができる。後者の実装において、音声信号が検出されずに所定量の時間が経過した後で、音声検索は、終了することができる。] [0064] 前のスクリーンショットにおいて示されなかったが、そのクライアントは、クライアントによって表示される地図402に関する地理的な情報を送信することができる。音声信号処理システムは、スクリーンショット410において表示される入力要求(prompt)に対する応答において受信された音声信号を解釈する際に使用するための地理的な情報と関連付けられた文法を選択することができる。] [0065] スクリーンショット416は、口語の検索用語“フライの店(Fry's)”に基づいて解釈された音声信号を示す。ユーザは、例えば各々の解釈と関連付けられた数字を、キーパッドを用いて入力するか、もしくは、発声することによって、可能な解釈の内の1つを選択することができる。スクリーンショット418は、フライの電気店の位置を識別する画鋲アイコン420を有する、カリフォルニアのローズビルの地図402を示す。] [0066] 図5は、この書類で説明されたシステム及び方法を実施するために、クライアントとして、もしくはサーバまたは複数のサーバとして使用され得る計算装置500、550の構成図である。計算装置500は、ラップトップ、デスクトップ、ワークステーション、携帯情報機器、サーバ、ブレードサーバ、メインフレーム、及び、他の適切なコンピュータのような、デジタルコンピュータの様々な形式を表すことを意図している。計算装置550は、携帯情報機器、セルラー電話機、スマートフォン、及び、他の同様の計算装置のような、携帯機器(モバイル機器)の様々な形式を表すことを意図している。更に、計算装置500または550は、ユニバーサルシリアルバス(Universal Serial Bus:USB)フラッシュドライブを備えることができる。USBフラッシュドライブは、オペレーティングシステム、及び他のアプリケーションを記憶することができる。USBフラッシュドライブは、無線送信器、もしくは、他の計算装置のUSBポートに挿入され得るUSBコネクタのような、入力/出力コンポーネントを備えることができる。ここで示された構成要素、それらの接続及び関係、そしてそれらの機能は、単に代表的であるべきことが意図されると共に、この書類で説明及び/または主張された本発明の実施を制限するようには意図されない。] 図5 [0067] 計算装置500は、プロセッサ502、メモリ504、記憶装置506、メモリ504と高速拡張ポート510につながる高速インタフェース508、及び低速バス514と記憶装置506につながる低速インタフェース512を備える。各々の構成要素502、504、506、508、510、及び512は、様々なバスを用いて相互接続されると共に、共通のマザーボードに搭載されるか、または必要に応じて他の方法で搭載され得る。プロセッサ502は、計算装置500の中で、メモリ504内に、または記憶装置506上に記憶された、高速インタフェース508に連結された表示装置516のような外部の入力/出力装置上のGUI用のグラフィック情報を表示するための命令を含む、実行のための命令を処理することができる。他の実装において、必要に応じて、複数のメモリ及び複数の種類のメモリと一緒に、複数のプロセッサ及び/または複数のバスが使用され得る。更に、複数の計算装置500が、(例えば、サーババンク、一群のブレードサーバ、またはマルチプロセッサシステムのような、)必要な動作の一部分を供給する各装置と接続され得る。] [0068] メモリ504は、計算装置500の中の情報を記憶する。1つの実装において、メモリ504は、揮発性記憶装置または複数の揮発性記憶装置である。別の実装において、メモリ504は、不揮発性記憶装置または複数の不揮発性記憶装置である。メモリ504は、更に、例えば磁気ディスクまたは光学ディスクのような、別の形式のコンピュータ読み取り可能な媒体であり得る。] [0069] 記憶装置506は、計算装置500に大容量記憶装置を提供することが可能である。1つの実装において、記憶装置506は、例えばフロッピー(登録商標)ディスク装置、ハードディスク装置、光ディスク装置、または、テープ装置、フラッシュメモリまたは他の同様の固体状メモリ装置、または、ストレージエリアネットワーク(storage area network)または他の構成における装置を含む一連の装置のような、コンピュータ読み取り可能な媒体であり得るか、またはコンピュータ読み取り可能な媒体を含み得る。コンピュータプログラム製品は、情報担体において明白に具体化されることができる。コンピュータプログラム製品は、更に、実行されたときに、上述の方法のような1つ以上の方法を遂行する命令を含み得る。情報担体は、例えばメモリ504、記憶装置506、プロセッサ502上のメモリ、または伝送された信号のような、コンピュータ読み取り可能な媒体もしくは機械読み取り可能な媒体である。] [0070] 高速制御器508は、計算装置500に関する帯域消費型操作(bandwidth-intensive operation)を管理し、一方、低速制御器512は、より少ない帯域消費型操作を管理する。機能のそのような割り当ては、単に代表的である。1つの実装において、高速制御器508は、メモリ504、(例えばグラフィックスプロセッサまたはアクセラレータを通して)表示装置516、及び様々な拡張カード(図示せず)を受け入れ得る高速拡張ポート510に連結される。実装において、低速制御器512は、記憶装置506及び低速拡張ポート514に連結される。様々な通信ポート(例えば、USB、ブルートゥース(登録商標)、イーサネット(登録商標)、ワイヤレスイーサネット(登録商標))を含み得る低速拡張ポートは、例えばキーボード、ポインティングデバイス、スキャナのような1つ以上の入力/出力装置に、あるいは例えばネットワークアダプタを通してスイッチまたはルータのようなネットワーク装置に、連結され得る。] [0071] 図において示されたように、計算装置500は、多くの異なる形式において実施され得る。例えば、それは、標準のサーバ520として実施され得るか、またはそのようなサーバのグループにおいて複数回実施され得る。それは、更に、ラックサーバシステム524の一部として実施され得る。更に、それは、ラップトップコンピュータ522のようなパーソナルコンピュータにおいて実施され得る。その代わりに、計算装置500が提供する構成要素は、装置550のような携帯型機器(図示せず)内の他の構成要素と結合され得る。そのような装置のそれぞれは、1つ以上の計算装置500、550を含み得ると共に、全体のシステムは、相互に通信する複数の計算装置500、550で構成され得る。] [0072] 計算装置550は、その他の構成要素として、プロセッサ552、メモリ564、表示装置554のような入力/出力装置、通信インタフェース566、及びトランシーバ568を備える。装置550は、更に、追加の記憶装置を提供するために、例えばマイクロドライブまたは他の装置のような記憶装置を提供され得る。それぞれの構成要素550、552、564、554、566、及び568は、様々なバスを用いて相互接続されると共に、構成要素の内のいくつかは、共通のマザーボードに搭載されるか、または必要に応じて他の方法で搭載され得る。] [0073] プロセッサ552は、メモリ564に格納される命令を含めて、計算装置550の中の命令を実行することができる。そのプロセッサは、個別の、そして複数のアナログプロセッサ及びデジタルプロセッサを含むチップのチップセットとして実施され得る。更に、そのプロセッサは、多くのアーキテクチャの内のいずれかを使用して実装され得る。例えば、プロセッサ410は、CISC(Complex Instruction Set Computer:複合命令セットコンピュータ)プロセッサ、RISC(Reduced Instruction Set Computer:縮小命令セットコンピュータ)プロセッサ、または、MISC(Minimal Instruction Set Computer:最小命令セットコンピュータ)プロセッサであり得る。例えば、そのプロセッサは、例えばユーザインタフェース、装置550によって実行されたアプリケーション、及び装置550による無線通信の制御のような、装置550の他の構成要素の調整を提供し得る。] [0074] プロセッサ552は、制御インタフェース558、及び表示装置554に連結される表示装置インタフェース556を通してユーザとコミュニケーションを取り得る。例えば、表示装置554は、TFT液晶表示装置(Thin-Film-Transistor Liquid Crystal Display)またはOLED(Organic Light Emitting Diode)表示装置、あるいは他の適切な表示装置技術であり得る。表示装置インタフェース556は、ユーザに対してグラフィック情報及び他の情報を提示するために、表示装置554を駆動するための適切な回路構成を含み得る。制御インタフェース558は、ユーザから命令を受け取ると共に、プロセッサ552に対する提示用にそれらを変換し得る。更に、外部インタフェース562は、装置550と他の装置との近接した領域の通信を可能にするために、プロセッサ552との通信に提供され得る。例えば、外部インタフェース562は、いくらかの実装における有線通信、もしくは他の実装における無線通信を提供し得ると共に、複数のインタフェースが同様に使用され得る。] [0075] メモリ564は、計算装置550の中の情報を記憶する。メモリ564は、1つ以上のコンピュータ読み取り可能な媒体、揮発性記憶装置または複数の揮発性記憶装置、あるいは不揮発性記憶装置または複数の不揮発性記憶装置として実施されることができる。更に、拡張メモリ574が提供されて、拡張インタフェース572を通して装置550に接続されると共に、拡張インタフェース572は、例えばSIMM(Single In Line Memory Module)カードインタフェースを含み得る。そのような拡張メモリ574は、装置550に追加の記憶スペースを提供し得るか、あるいは、装置550のためのアプリケーションまたは他の情報を同様に記憶し得る。具体的には、拡張メモリ574は、上述の処理を実行するか、または補うための命令を含み得ると共に、同様に安全な情報を含み得る。従って、例えば、拡張メモリ574は、装置550のための安全性モジュールとして提供され得ると共に、装置550の安全な使用を可能にする命令によってプログラムされ得る。更に、例えばハッキング不可能な方法で識別情報をSIMMカード上に配置するように、安全なアプリケーションが、追加の情報と共に、SIMMカードによって提供され得る。] [0076] 例えば、以下で論じられるように、そのメモリは、フラッシュメモリ、及び/またはNVRAMメモリを含み得る。1つの実装において、コンピュータプログラム製品は、情報担体において明白に具体化される。コンピュータプログラム製品は、実行されたときに、上述の方法のような1つ以上の方法を遂行する命令を含む。情報担体は、例えばメモリ564、拡張メモリ574、プロセッサ552上のメモリ、または例えばトランシーバ588あるいは外部インタフェース562を介して受信され得る伝送された信号のような、コンピュータ読み取り可能な媒体もしくは機械読み取り可能な媒体である。] [0077] 装置550は、通信インタフェース566を通して無線で通信し得ると共に、通信インタフェース566は、必要ならばデジタル信号処理回路構成を含み得る。とりわけ、通信インタフェース566は、例えばGSM音声コール、SMS、EMS、またはMMS通信、CDMA、TDMA、PDC、WCDMA、CDMA2000、またはGPRSのような様々なモードまたはプロトコルに基づいて通信を提供し得る。例えば、そのような通信は、無線周波数トランシーバ568を通して発生し得る。更に、ブルートゥース(Bluetooth)、WiFi(ワイファイ)、または他のそのようなトランシーバ(図示せず)を使用することによって、短距離通信が発生し得る。更に、GPS(Global Positioning System)受信機モジュール570は、装置550に、追加のナビゲーション及び場所に関連する無線データを提供し得ると共に、無線データは、必要に応じて、装置550上で動作するアプリケーションによって使用され得る。] [0078] 装置550は、更に、ユーザから口語の情報を受け取ると共に、それを使用に適したデジタル情報に変換し得る音声コーデック560を使用して、聞こえるように(audibly:可聴音によって)通信し得る。音声コーデック560は、同様に、例えば装置550の受話器において、例えばスピーカなどを通してユーザに対する可聴音を生成し得る。音声電話からの音を含み得るそのような音は、記録された音(例えば、ボイスメッセージ、音楽ファイル等)を含み得ると共に、更に、装置550上で動作するアプリケーションによって生成された音を含み得る。] [0079] 図において示されたように、計算装置550は、多くの異なる形式において実施され得る。例えば、それは、セルラー電話機580として実施され得る。それは、更に、スマートフォン582、携帯情報機器、または他の同様の携帯型機器の一部として実施され得る。] [0080] ここで説明されたシステム及び技術の様々な実装は、デジタル電子回路構成、集積回路構成、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/またはそれの組み合わせにおいて実現されることができる。これらの様々な実装は、少なくとも1つのプログラム可能なプロセッサを含むプログラマブルシステムで実行可能であるか、及び/または解釈可能である1つ以上のコンピュータプログラムにおける実装を含むことができると共に、少なくとも1つのプログラム可能なプロセッサは、そこからデータと命令を受信すると共に、そこにデータと命令を送信するように、記憶装置システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に連結された、特殊用途または一般用途のプロセッサであり得る。] [0081] これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている)は、プログラム可能なプロセッサのための機械語命令を含むと共に、高水準の手続き的及び/またはオブジェクト指向のプログラミング言語で、及び/または、アセンブリ言語/機械語で実装されることができる。ここで使用されるように、用語“機械読み取り可能な媒体”、“コンピュータ読み取り可能な媒体”は、プログラム可能なプロセッサに機械語命令及び/またはデータを提供するために使用される、あらゆるコンピュータプログラム製品、器具、及び/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能論理回路(Programmable Logic Device:PLD))のことを指しており、機械読み取り可能な信号として機械語命令を受け取る機械読み取り可能な媒体を含んでいる。用語“機械読み取り可能な信号”は、プログラム可能なプロセッサに機械語命令及び/またはデータを提供するために使用されるあらゆる信号のことを指している。] [0082] ユーザとの対話を提供するために、ここで説明されたシステム及び技術は、情報をユーザに表示するための表示装置(例えばCRT(ブラウン管)またはLCD(液晶表示装置)モニタ)、そして、それによりユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス(例えばマウスまたはトラックボール)を有するコンピュータ上で実施されることができる。他の種類の装置が、同様に、ユーザとの対話を提供するために使用されることができ、例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚に関するフィードバック(例えば視覚のフィードバック、聴覚のフィードバック、または触覚のフィードバック)であり得ると共に、ユーザからの入力は、音入力、音声入力、触覚入力を含むあらゆる形式で受信されることができる。] [0083] ここで説明されたシステム及び技術は、計算システムにおいて実施されることができると共に、計算システムは、(例えばデータサーバのような)バックエンドコンポーネントを備えるか、もしくは、計算システムは、(例えばアプリケーションサーバのような)ミドルウェアコンポーネントを備えるか、もしくは、計算システムは、(それを通してユーザがここで説明されたシステム及び技術の実装と対話することができる、グラフィカルユーザインタフェースまたはウェブブラウザを有するクライアントコンピュータのような)フロントエンドコンポーネントを備えるか、もしくは、計算システムは、1つ以上のそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントのあらゆる組み合わせを備える。システムのコンポーネント(構成要素)は、デジタルデータ通信のあらゆる形式または媒体(例えば通信ネットワーク)によって、相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、(特別なメンバーもしくは静的なメンバーを有する)ピアツーピアネットワーク(peer-to-peer network)、グリッドコンピューティング基盤(grid computing infrastructure)、及びインターネットを含む。] [0084] 計算システムは、クライアント及びサーバを備えることができる。クライアント及びサーバは、一般的に、相互から遠く離れており、そして通常は通信ネットワークによって情報のやり取りをする。クライアントとサーバの関係は、それぞれのコンピュータ上で動作すると共に、相互にクライアントとサーバの関係を有するコンピュータプログラムのおかげで発生する。] [0085] 2、3の実装が上記で詳細に説明されたが、他の修正が可能である。例えば、地理的位置を選択するために使用される地理情報は、ユーザによって表示されたテキストに基づいて取得されることができる。例えば、ユーザは、オクラホマの大きい州を描写するウェブサイトを訪問することができる。ウェブブラウザ(または他のアプリケーション)は、そのユーザがオクラホマに興味があることを示す地理情報を送信することができる。いくらかの実装において、もしオクラホマに関係した言葉のしきい値数が見いだされるならば、ウェブブラウザ(または他のアプリケーション)は、地理情報のみを送信する。] [0086] 別の実装において、地理的位置を選択するために使用される地理情報は、ユーザによって入力されたテキストに基づいている。例えば、そのユーザは、“山火事”及び“カリフォルニア”のような検索語を検索エンジンインタフェースに入力し得る。文法選択器は、更に、カリフォルニアの中の特定の位置を識別するために、これらの用語を相互に関連付けることができる。例えば、統合された一群の検索エンジンユーザが提供する最近の検索結果は、結果が多くの場合にカリフォルニアのサンディエゴの記載を含むことを示し得る。文法選択器は、最近の検索結果に基づいて、サンディエゴの近くに固定された文法を識別することができる。] [0087] 更に、装置の現在の場所を位置特定することが、携帯電話機または他の携帯機器の中のGPS機能に関して説明されたが、他の位置情報検出システム(location-based detection system)が使用されることができる。例えば、携帯機器の位置は、更に、セル基点(cell of origin:COO)移動体位置特定技術、到達時間差(time difference of arrival:TDOA)信号検出技術、到来時刻(time of arrival:TOA)技術、到来角(angle of arrival:AoA)測定技術、強化観測時間差(enhanced observed time difference:EOTD)技術、等によって確認されることができる。] [0088] 他の実装において、文法形成器は、ユーザによって送信されるか、もしくは受信された電子メールに基づいて、ユーザのために個人化された文法を編集することができる。文法選択サーバは、クライアントから受け取られたユーザIDに基づいて、使用するべき個人化された文法を選択することができる。] [0089] 更に、図において描写された論理フローは、望ましい結果を達成するために、示された特定の順序、及び順次的な順序を必要としない。更に、説明されたフローに他のステップが提供され得るか、または説明されたフローからステップが消去され得ると共に、説明されたシステムに他の構成要素が増加され得るか、または説明されたシステムから構成要素が除去され得る。従って、他の実施例は、添付の請求項の範囲内にある。] [0090] 100 代表的システム 102クライアント装置 104文法選択サーバ 106音声認識サーバ 108携帯機器用ブラウザ 110データ蓄積部 112地理的位置と関連付けられた文法 114黙示的な地理的情報 118 文法を識別する情報(文法情報) 120音声入力 122応答 200 代表的クライアント 202 代表的音声信号処理システム 204ネットワーク 206携帯電話機(モバイル機器) 208アプリケーション環境 210インターネットブラウザ 212マイクロホンインタフェース 214 GPSトランシーバインタフェース 216多モードサーバ 218 文法選択サーバ 220 音声認識サーバ 222地理的な文脈情報(地理的連絡先情報) 224 逆ジオコーダ 226 文法インデックス 228 文法ID 230 データ蓄積部 232 文法IDを含む要求 234 文法 236音声信号 238 音声信号デコーダ 240テキスト 300代表的方法 400スクリーンショット 402 地図 404検索オプションウィンドウ 406オプション 408 オプション 410 スクリーンショット 412 図 416 スクリーンショット 418 スクリーンショット 420画鋲アイコン 500計算装置 502プロセッサ 504メモリ 506記憶装置 508高速インタフェース 510高速拡張ポート 512低速インタフェース 514低速バス 516表示装置 520標準のサーバ 522ラップトップコンピュータ 524ラックサーバシステム 550 計算装置 552 プロセッサ 554 表示装置 556 表示装置インタフェース 558制御インタフェース 560音声コーデック 562外部インタフェース 564 メモリ 566通信インタフェース 568 トランシーバ 570GPS受信機モジュール 572拡張インタフェース 574拡張メモリ 580セルラー電話機 582 スマートフォン]
权利要求:
請求項1 コンピュータで実行される方法であって、第1の計算装置と関連付けられると共に、地理的位置におけるユーザの関心を意味する非言語的ユーザ操作から取得された地理的情報を受信する段階と、取得された前記地理的情報を使用して、前記地理的位置と関連付けられた文法を識別する段階と、前記ユーザからの音声入力の音声認識処理のために識別された前記文法を選択する際に使用するための文法指示子を出力する段階とを含むことを特徴とする方法。 請求項2 前記非言語的ユーザ操作が、前記地理的位置に前記第1の計算装置を移動させることを含むことを特徴とする請求項1に記載の方法。 請求項3 受信された前記地理的情報が、グローバルポジショニングシステム(GPS)データを含むことを特徴とする請求項2に記載の方法。 請求項4 前記非言語的ユーザ操作が、前記地理的位置と関連付けられた地図を表示することを含むことを特徴とする請求項1に記載の方法。 請求項5 前記地図の中心における位置を前記地理的位置として選択する段階を更に含むことを特徴とする請求項4に記載の方法。 請求項6 表示された前記地図のズームレベルに基づいて、前記地理的位置を選択する段階を更に含むことを特徴とする請求項5に記載の方法。 請求項7 前記非言語的ユーザ操作が、前記地理的位置と関連付けられたテキストを表示することを含むことを特徴とする請求項1に記載の方法。 請求項8 前記非言語的ユーザ操作が、前記地理的位置と関連付けられたテキストを入力することを含むことを特徴とする請求項1に記載の方法。 請求項9 前記ユーザと関連付けられたユーザ識別子を受信する段階を更に含むことを特徴とする請求項1に記載の方法。 請求項10 前記ユーザ識別子と関連付けられたユーザ文法を識別する段階と、前記ユーザからの前記音声入力の音声認識処理のために前記ユーザ文法を選択する際に使用するためのユーザ文法指示子を、音声認識プロセッサに出力する段階とを更に含むことを特徴とする請求項9に記載の方法。 請求項11 前記ユーザの過去のインターネット検索履歴に基づいて、前記ユーザ文法を生成する段階を更に含むことを特徴とする請求項10に記載の方法。 請求項12 前記ユーザと関連付けられた電子メールに基づいて、前記ユーザ文法を生成する段階を更に含むことを特徴とする請求項10に記載の方法。 請求項13 非言語的ユーザ操作のリストを受け取る段階を更に含むことを特徴とする請求項1に記載の方法。 請求項14 前記リストに基づいて、アプリケーション文脈を識別する段階と、前記アプリケーション文脈と関連付けられたアプリケーション文脈文法を識別する段階とを更に含むことを特徴とする請求項13に記載の方法。 請求項15 ユーザからの音声入力の音声認識処理のためにアプリケーション文脈文法を選択する際に使用するためのアプリケーション文脈識別子を出力する段階を更に含むことを特徴とする請求項14に記載の方法。 請求項16 前記非言語的ユーザ操作のリストが、アプリケーションの中のユーザのナビゲーションと関連付けられた識別子を含むことを特徴とする請求項13に記載の方法。 請求項17 前記リストが、ユーザによって選択されたアプリケーションメニュー項目を含むことを特徴とする請求項16に記載の方法。 請求項18 もし追加の非言語的操作がユーザの新しい関心を意味するならば、前記新しい関心に基づく異なる文法を選択する段階を更に含むことを特徴とする請求項1に記載の方法。 請求項19 コンピュータで実行される方法であって、計算装置と関連付けられると共に、音声認識プロセッサによって促されたものではないユーザ操作に基づく文脈情報を受信する段階と、前記文脈情報に基づいて、地理的位置を取得する段階と、前記地理的位置と関連付けられた文法を識別する段階と、前記ユーザからの音声入力の処理において使用する前記文法を選択する際に使用するための文法識別子を出力する段階とを含むことを特徴とする方法。 請求項20 第1の計算装置と関連付けられると共に、地理におけるユーザの関心を意味する非言語的ユーザ操作に基づく文脈情報を受信するインタフェースと、受信された前記文脈情報から取得された地理的位置と関連付けられた文法を識別するための手段と、前記ユーザから受け取られた音声入力を解釈するために識別された前記文法を使用するように構成された音声認識サーバとを備えることを特徴とするシステム。
类似技术:
公开号 | 公开日 | 专利标题 AU2018204661B2|2019-12-19|Systems and methods for integrating third party services with a digital assistant US10803067B2|2020-10-13|Providing results to parameterless search queries AU2017221864C1|2020-01-16|User training by intelligent digital assistant US9894460B1|2018-02-13|Routing queries based on carrier phrase registration US9865264B2|2018-01-09|Selective speech recognition for chat and digital personal assistant systems US20190220247A1|2019-07-18|Interface for a virtual digital assistant JP6740162B2|2020-08-12|Using contextual information to facilitate Virtual Assistant command processing JP2017162501A|2017-09-14|文書のブラウジング方法、ポータブル電子機器、情報処理装置及びプログラム US10691473B2|2020-06-23|Intelligent automated assistant in a messaging environment DK179343B1|2018-05-14|Intelligent task discovery US9911418B2|2018-03-06|Systems and methods for speech command processing US10417266B2|2019-09-17|Context-aware ranking of intelligent response suggestions US10475446B2|2019-11-12|Using context information to facilitate processing of commands in a virtual assistant AU2015210460B2|2017-04-13|Speech recognition repair using contextual information US20200065339A1|2020-02-27|Location-Based Searching Using a Search Area That Corresponds to a Geographical Location of a Computing Device US10733983B2|2020-08-04|Parameter collection and automatic dialog generation in dialog systems US9930167B2|2018-03-27|Messaging application with in-application search functionality US10778793B2|2020-09-15|Proactive environment-based chat information system AU2014306221B2|2017-04-06|Auto-activating smart responses based on activities from remote devices JP6727212B2|2020-07-22|不完全自然言語クエリを理解するための方法 US10657961B2|2020-05-19|Interpreting and acting upon commands that involve sharing information with remote devices US9300784B2|2016-03-29|System and method for emergency calls initiated by voice command US9646609B2|2017-05-09|Caching apparatus for serving phonetic pronunciations US10270862B1|2019-04-23|Identifying non-search actions based on a search query JP5625103B2|2014-11-12|Location-based response to a telephone request
同族专利:
公开号 | 公开日 EP2260264A4|2015-05-06| US20140195234A1|2014-07-10| KR101605147B1|2016-04-01| US10510338B2|2019-12-17| KR20180043405A|2018-04-27| CN102016502A|2011-04-13| KR101758302B1|2017-07-14| CN107331389A|2017-11-07| WO2009111721A2|2009-09-11| US20170092267A1|2017-03-30| US9858921B2|2018-01-02| US20090228281A1|2009-09-10| WO2009111721A3|2010-01-14| KR101881985B1|2018-08-24| US8255224B2|2012-08-28| KR20100126796A|2010-12-02| US20200043472A1|2020-02-06| US20120316878A1|2012-12-13| CN102016502B|2017-06-09| KR20150097816A|2015-08-26| KR20170081745A|2017-07-12| US8527279B2|2013-09-03| EP2260264A2|2010-12-15|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
法律状态:
2012-03-07| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120306 | 2012-03-07| A621| Written request for application examination|Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120306 | 2012-12-28| A977| Report on retrieval|Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121228 | 2013-02-20| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130219 | 2013-08-07| A02| Decision of refusal|Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130806 |
优先权:
[返回顶部]
申请号 | 申请日 | 专利标题 相关专利
Sulfonates, polymers, resist compositions and patterning process
Washing machine
Washing machine
Device for fixture finishing and tension adjusting of membrane
Structure for Equipping Band in a Plane Cathode Ray Tube
Process for preparation of 7 alpha-carboxyl 9, 11-epoxy steroids and intermediates useful therein an
国家/地区
|